Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation - work4ai

Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation